本文来自微信公众号:王智远 (ID:Z201440),作者:王智远,题图来自:AI生成
最近,DeepSeek-V3在国外火了。
它为什么火呢?主要有三个原因:
一,性能非常出色。
在许多测试中,它都超过了其他顶尖模型,比如GPT-4o和Claude 3.5 Sonnet。特别在数学和代码生成方面,表现尤为突出。
二,它的训练成本相对较低。只要600万美元就能完成训练,与其他顶级模型相比,性价比极高。
三,它是开源的。全球的开发者都可以免费使用和测试它。
因此,它火了。不过,随着它的火爆,很多人开始好奇:这个模型来自哪里?它与其他模型有何不同?
带着同样的疑问,我查看了它12月26日在GitHub上发布的报告——DeepSeek-V3 Technical Report。总结出五点内容,关于模型架构设计、基础设施、预训练、后训练模型,以及评估结果。现在向你汇报一下。
一
先来说说这家公司:
DeepSeek-V3由中国幻方量化公司开发,它是基于自研MoE模型的新一代大语言模型。
MoE,全称Mixture of Experts,也叫混合专家技术,是一种机器学习架构,是通过组合多个专家模型,在处理复杂任务时,让效率和准确度都大大提升。
以前,人们总爱把“DeepSeek”比作AI界的拼多多。
因为它开启了中国大模型的价格战。2024年5月,它们推出了一个名为DeepSeek V2的开源模型。这个模型的性价比超级高,每百万个token的推理计算成本只要1块钱。
这个价格,大概是Llama3 70B的1/7,也是GPT-4 Turbo的1/70。
这个消息一出,字节、腾讯、百度、阿里,还有kimi这些AI公司都跟着降价。所以,DeepSeek凭借它的高性价比,在中国大模型市场掀起了第一场价格战。
但是,V2.5版本的更新速度不快,直到9月份才有动静;现在又过了3个月,V3版本终于来了。这次,大家最想知道的就是,它的架构有什么新变化。
这家公司的老板梁文锋说过,以前中国公司习惯于做应用变现,但现在DeepSeek的目标是走在技术前沿。他希望用技术推动整个生态的发展。他认为,中国公司应该从“搭便车”的角色,转变为“贡献者”,主动参与到全球创新的大潮中。
那么,DeepSeek-V3到底有哪些技术架构上新亮点呢?
图释:DeepSeek-V3MoE架构工作流程
报告中(第4P到第6P部分)说:DeepSeek-V3的架构设计非常精巧,主要有四点:
专家团(MoE架构);
多头潜在注意力(MLA);
无辅助损失的负载平衡策略;
多令牌预测训练目标。
分别是什么意思呢?首先,DeepSeek-V3有671亿个参数,像一个超级大脑。这个大脑采用的技术叫做MoE架构,就是混合专家技术。这意味着它里面有很多专家模型,但每次只需要调用37亿个参数来工作就可以了。
为了让专家模型高效工作,DeepSeek-V3得有个聪明的调度员,确保每个专家都有活干,不会有的很忙,有的很闲。
因此,DeepSeek-V3装载了信息过滤器,叫做“MLA”,它能让模型只关注信息中的重要部分,不会被不重要的细节分散注意力。
但是,这样还不够,DeepSeek-V3还得确保每个专家都能得到合理的工作量,并且训练模型去预测接下来的几个步骤,不只是下一步;这就是无辅助损失的负载平衡策略和多令牌预测训练目标的用处。
简单来说,让每个专家都有合理的工作量,同时训练模型去预测接下来的几个步骤,这样模型在实际工作中就能表现得更好,比如在处理长篇文章时能更好地理解上下文。
所以,DeepSeek-V3的架构有四个要点:
一,MLA技术,通过压缩注意力机制减少需要处理的信息量,提高效率。二,DeepSeekMoE技术,用更细粒度的专家和共享专家提高训练效率,并且动态调整专家间的工作量均衡。
三,无辅助损失的负载平衡策略,确保专家间工作量均衡,不依赖额外的损失项;四,多令牌预测训练目标,提高模型的预测能力和数据效率。
总之,DeepSeek-V3的架构,像一个高效的团队,每个成员都有特定的任务,而且团队能够预测并准备接下来的工作,这样的设计才能让模型在处理信息时既快速又准确。
二
报告第11页到第12页详细讲解了DeepSeek-V3的训练技术。首先,DeepSeek-V3是在拥有2048个NVIDIA H800 GPU的超级计算机上进行训练的。
这些GPU通过NVLink和NVSwitch在单个节点内连接,节点之间则通过InfiniBand(IB)连接,形成了一个强大的分布式计算网络。
接下来说说训练框架。DeepSeek-V3用了一个叫做DualPipe的算法,这个算法能让模型更智能地分配任务,减少等待时间,确保每个部分都能在正确的时间做正确的事。
这个算法具体包括两点:
一,DualPipe和计算通信重叠。就像两组工人,一组加工零件,一组准备材料。如果他们不同步,加工好的零件就会堆积。
DeepSeek-V3的DualPipe算法让这两组工人的工作节奏同步,一边加工零件,一边准备材料,这样就没有等待时间,生产过程更流畅。
二,高效实现跨节点全对全通信。你可以想象一个大工厂的不同车间需要共享信息。DeepSeek-V3通过高效的通信技术,确保不同“车间”(计算节点)之间的信息能快速共享,就像建立了一个快速的信息传递网络。
两者组合,就能在有限的硬件资源下训练更大的模型。
有了算法还不够,还要精练。怎么精练?DeepSeek-V3推出了一种叫FP8的新技术。简单来说,通过五个步骤用更小的数字代替原来的大数字,让计算机更快地做计算,同时节省电力。
举个例子:
在超市买东西,大多数情况下不用精确到小数点后,大概齐就行了。但是,用小数字代替大数字可能会影响精细工作。
怎么办?DeepSeek-V3在关键的地方会用更精确的大数字(FP32)来确保质量,比如:矩阵乘法,这就像在做精细活儿时,在关键步骤用上好工具,其他时候用差点的也没事。
在训练过程中,DeepSeek-V3还会用FP8存储中间结果,节省更多的内存空间。这就像整理东西时,不用把所有东西都放在显眼的地方,而是合理地收纳起来,需要时再拿出来。
最后,DeepSeek-V3在实际使用时也会根据情况来决定用不用FP8,这样就能在保证效果的同时,让模型跑得更快,更省资源。
如同我们在日常生活中会根据不同的情况来选择不同的工具,既高效又节约,这就是它的底层基础技术。
三
DeepSeek-V3是怎么做预训练的呢?
报告里说,DeepSeek-V3的预训练涉及六个方面:数据建设、超参数调整、长上下文扩展、评估基准、消融研究,还有辅助无损耗平衡策略。
首先是“数据建设”。
DeepSeek-V3用了14.8万亿个高质量的数据点来训练,这些数据覆盖了很多不同的领域和语言,这样模型就能学到很多不同的知识。
然后,在训练开始之前,得设置一些重要的参数,比如学习率。DeepSeek-V3会仔细挑选这些参数,让模型能以最好的方式学习,这叫超参数调整(Hyper-Parameters)。
紧接着,对长上下文扩展(Long Context Extension)。
这就像教模型读长故事。DeepSeek-V3用了一些特别的技术,比如YaRN,来增加模型能处理的文本长度,从4K字节增加到128K字节。这样,模型就能理解更长的文章和故事了。
在学习的过程中,还得检查模型学得怎么样。这就是“评估基准”的作用。DeepSeek-V3会在各种测试上进行评估,比如MMLMU-Pro、GPQA-Diamond等,确保模型在不同的任务上都能表现得很好。
图释:DeepSeek-V3训练数据的方法
消融研究(ablation experiment)是什么?
DeepSeek-V3会做很多实验,看看哪些方法最管用。比如研究无辅助损失的负载平衡策略,找出哪些技术最能提高模型的性能等。
最后,模型通过动态调整,使得每个专家的工作量更加均衡,而不是通过辅助损失来强制平衡。如此一来,预训练阶段就能吸收和处理很多信息,学会理解和生成文本,为后面的训练打下坚实的基础。
看完这段报告后我觉得,训练模型就像给一个5岁孩子提供学习资源和环境一样,让它在成长过程中能够全面发展。
四
问题是:只有预训练还不够,后训练才能让模型更成熟。那么,DeepSeek-V3是怎么做的后训练呢?
首先是监督微调(Supervised Fine-Tuning,SFT)。
DeepSeek团队为模型准备了150万个实例的特别训练集,就像是一本包含各种生活场景的百科全书。每个训练集都是精心设计,确保模型能学会在不同情况下应该怎么处理。
对于那些需要逻辑和计算的数据,比如数学问题或者编程挑战,团队用了一个已经训练好的模型(DeepSeek-R1)来生成例子。
虽然这些例子通常很准确,但有时可能太复杂或者格式不规范。所以,团队的目标是让数据既准确又容易理解。
为了做到这一点,他们结合了监督微调(SFT)和强化学习(Reinforcement Learning,RL)的方法,训练了一些“专家模型”。这些专家模型就像专业的老师,负责教模型如何在特定领域做得更好。
在训练过程中,他们会创造两种类型的例子:一种是直接的问题和答案,另一种加上了“系统提示”的问题、答案和R1模型的响应。这些系统提示就像教学大纲,指导模型如何给出有深度和经过验证的答案。
对了,在“强化学习”阶段,模型会尝试不同的回答,根据效果得到奖励或惩罚。
通过这个过程,模型就学会了给出更好的答案;最后,团队会用“拒绝采样”的方法挑选最好的示例,用于最终模型的训练,这确保了用于模型学习的数据既准确又容易理解。
对于非推理数据,比如:写故事或者角色扮演,团队用了另一个模型(DeepSeek-V2.5)来生成回答,然后让人工检查这些回答是否准确和合适。这两个步骤,报告中称之为“评价标准”。
最后,DeepSeek团队对DeepSeek-V3-Base进行了两个时期的微调,采用了从5×10-6到1×10-6的“余弦衰减学习率调度”。
在训练期间,每个序列都由多个样本组成,但他们采用了“样本屏蔽策略”,确保示例相互独立,这是一种“开放评估”的模型。
通过这些后训练步骤,DeepSeek-V3能够在实际应用中做到更加精准,就像完成基础训练后,再给它进行一些专业技能的培训。
他们给它起的名字叫“生成奖励模型”,这让它不仅是一个学习者,还成为了一个评委;如此周而复始,建立一套正向反馈机制。
五
那么,通过这套模型训练出来的成果如何呢?
DeepSeek-V3做了一系列的全面基准测试,这些测试相当于给超级大脑出了一套标准化的试卷,看看它在各个科目上能得多少分。这些科目包括教育知识、语言理解、编程技能、数学问题解决等。
在数学推理上:
在MATH-500测试中,DeepSeek-V3得了90.2分,这个分数不仅比所有开源竞争对手高,比如Qwen 2.5的80分和Llama 3.1的73.8分,也超过了闭源模型GPT-4o的74.6分。
在MGSM(小学数学)测试中,DeepSeek-V3得了79.8分,超过了Llama 3.1的69.9分和Qwen 2.5的76.2分。在CMath(中国数学)测试中,DeepSeek-V3得了90.7分,比Llama 3.1的77.3分和GPT-4o的84.5分都要好。
图解:DeepSeek-V3基准测试数据
在编程和编码能力方面:
在LiveCodeBench测试中,DeepSeek-V3的通过率达到了37.6%,领先于Llama 3.1的30.1%和Claude 3.5 Sonnet的32.8%。
在HumanEval-Mul测试中,DeepSeek-V3得了82.6%,比Qwen 2.5的77.3%高,并且和GPT-4o的80.5%差不多。在CRUXEval-I测试中,DeepSeek-V3得了67.3%,明显优于Qwen 2.5的59.1%和Llama 3.1的58.5%。
在多语言和非英语任务上:
在CMMLU(中文多语言理解)测试中,DeepSeek-V3得了88.8分,超过了Qwen 2.5的89.5分,并且领先于Llama 3.1的73.7分。
在C-Eval,中国评估基准测试中,DeepSeek-V3得了90.1分,远远领先于Llama 3.1的72.5分。
其他数据还有很多,总的来说,DeepSeek-V3成绩遥遥领先;对了,还有一句要提的是:DeepSeek-V3的训练成本只有557.6万美元,这只是训练Meta的Llama 3.1所需估计的5亿美元的一小部分。
所以,DeepSeek-V3新的模型结构,无疑是如今人工智能领域中一次新的变革。高效、省力、省成本;难怪连OpenAI的前首席科学家Andrej Karpathy也表示,这是一次“令人印象深刻的展示”。
如果DeepSeek-V3在资源有限的情况下,都能表现出如此卓越的工程能力,以后是不是不需要大型GPU集群了?这个问题值得我们思考。
本文来自微信公众号:王智远 (ID:Z201440),作者:王智远,题图来自:AI生成
最近,DeepSeek-V3在国外火了。
它为什么火呢?主要有三个原因:
一,性能非常出色。
在许多测试中,它都超过了其他顶尖模型,比如GPT-4o和Claude 3.5 Sonnet。特别在数学和代码生成方面,表现尤为突出。
二,它的训练成本相对较低。只要600万美元就能完成训练,与其他顶级模型相比,性价比极高。
三,它是开源的。全球的开发者都可以免费使用和测试它。
因此,它火了。不过,随着它的火爆,很多人开始好奇:这个模型来自哪里?它与其他模型有何不同?
带着同样的疑问,我查看了它12月26日在GitHub上发布的报告——DeepSeek-V3 Technical Report。总结出五点内容,关于模型架构设计、基础设施、预训练、后训练模型,以及评估结果。现在向你汇报一下。
一
先来说说这家公司:
DeepSeek-V3由中国幻方量化公司开发,它是基于自研MoE模型的新一代大语言模型。
MoE,全称Mixture of Experts,也叫混合专家技术,是一种机器学习架构,是通过组合多个专家模型,在处理复杂任务时,让效率和准确度都大大提升。
以前,人们总爱把“DeepSeek”比作AI界的拼多多。
因为它开启了中国大模型的价格战。2024年5月,它们推出了一个名为DeepSeek V2的开源模型。这个模型的性价比超级高,每百万个token的推理计算成本只要1块钱。
这个价格,大概是Llama3 70B的1/7,也是GPT-4 Turbo的1/70。
这个消息一出,字节、腾讯、百度、阿里,还有kimi这些AI公司都跟着降价。所以,DeepSeek凭借它的高性价比,在中国大模型市场掀起了第一场价格战。
但是,V2.5版本的更新速度不快,直到9月份才有动静;现在又过了3个月,V3版本终于来了。这次,大家最想知道的就是,它的架构有什么新变化。
这家公司的老板梁文锋说过,以前中国公司习惯于做应用变现,但现在DeepSeek的目标是走在技术前沿。他希望用技术推动整个生态的发展。他认为,中国公司应该从“搭便车”的角色,转变为“贡献者”,主动参与到全球创新的大潮中。
那么,DeepSeek-V3到底有哪些技术架构上新亮点呢?
图释:DeepSeek-V3MoE架构工作流程
报告中(第4P到第6P部分)说:DeepSeek-V3的架构设计非常精巧,主要有四点:
专家团(MoE架构);
多头潜在注意力(MLA);
无辅助损失的负载平衡策略;
多令牌预测训练目标。
分别是什么意思呢?首先,DeepSeek-V3有671亿个参数,像一个超级大脑。这个大脑采用的技术叫做MoE架构,就是混合专家技术。这意味着它里面有很多专家模型,但每次只需要调用37亿个参数来工作就可以了。
为了让专家模型高效工作,DeepSeek-V3得有个聪明的调度员,确保每个专家都有活干,不会有的很忙,有的很闲。
因此,DeepSeek-V3装载了信息过滤器,叫做“MLA”,它能让模型只关注信息中的重要部分,不会被不重要的细节分散注意力。
但是,这样还不够,DeepSeek-V3还得确保每个专家都能得到合理的工作量,并且训练模型去预测接下来的几个步骤,不只是下一步;这就是无辅助损失的负载平衡策略和多令牌预测训练目标的用处。
简单来说,让每个专家都有合理的工作量,同时训练模型去预测接下来的几个步骤,这样模型在实际工作中就能表现得更好,比如在处理长篇文章时能更好地理解上下文。
所以,DeepSeek-V3的架构有四个要点:
一,MLA技术,通过压缩注意力机制减少需要处理的信息量,提高效率。二,DeepSeekMoE技术,用更细粒度的专家和共享专家提高训练效率,并且动态调整专家间的工作量均衡。
三,无辅助损失的负载平衡策略,确保专家间工作量均衡,不依赖额外的损失项;四,多令牌预测训练目标,提高模型的预测能力和数据效率。
总之,DeepSeek-V3的架构,像一个高效的团队,每个成员都有特定的任务,而且团队能够预测并准备接下来的工作,这样的设计才能让模型在处理信息时既快速又准确。
二
报告第11页到第12页详细讲解了DeepSeek-V3的训练技术。首先,DeepSeek-V3是在拥有2048个NVIDIA H800 GPU的超级计算机上进行训练的。
这些GPU通过NVLink和NVSwitch在单个节点内连接,节点之间则通过InfiniBand(IB)连接,形成了一个强大的分布式计算网络。
接下来说说训练框架。DeepSeek-V3用了一个叫做DualPipe的算法,这个算法能让模型更智能地分配任务,减少等待时间,确保每个部分都能在正确的时间做正确的事。
这个算法具体包括两点:
一,DualPipe和计算通信重叠。就像两组工人,一组加工零件,一组准备材料。如果他们不同步,加工好的零件就会堆积。
DeepSeek-V3的DualPipe算法让这两组工人的工作节奏同步,一边加工零件,一边准备材料,这样就没有等待时间,生产过程更流畅。
二,高效实现跨节点全对全通信。你可以想象一个大工厂的不同车间需要共享信息。DeepSeek-V3通过高效的通信技术,确保不同“车间”(计算节点)之间的信息能快速共享,就像建立了一个快速的信息传递网络。
两者组合,就能在有限的硬件资源下训练更大的模型。
有了算法还不够,还要精练。怎么精练?DeepSeek-V3推出了一种叫FP8的新技术。简单来说,通过五个步骤用更小的数字代替原来的大数字,让计算机更快地做计算,同时节省电力。
举个例子:
在超市买东西,大多数情况下不用精确到小数点后,大概齐就行了。但是,用小数字代替大数字可能会影响精细工作。
怎么办?DeepSeek-V3在关键的地方会用更精确的大数字(FP32)来确保质量,比如:矩阵乘法,这就像在做精细活儿时,在关键步骤用上好工具,其他时候用差点的也没事。
在训练过程中,DeepSeek-V3还会用FP8存储中间结果,节省更多的内存空间。这就像整理东西时,不用把所有东西都放在显眼的地方,而是合理地收纳起来,需要时再拿出来。
最后,DeepSeek-V3在实际使用时也会根据情况来决定用不用FP8,这样就能在保证效果的同时,让模型跑得更快,更省资源。
如同我们在日常生活中会根据不同的情况来选择不同的工具,既高效又节约,这就是它的底层基础技术。
三
DeepSeek-V3是怎么做预训练的呢?
报告里说,DeepSeek-V3的预训练涉及六个方面:数据建设、超参数调整、长上下文扩展、评估基准、消融研究,还有辅助无损耗平衡策略。
首先是“数据建设”。
DeepSeek-V3用了14.8万亿个高质量的数据点来训练,这些数据覆盖了很多不同的领域和语言,这样模型就能学到很多不同的知识。
然后,在训练开始之前,得设置一些重要的参数,比如学习率。DeepSeek-V3会仔细挑选这些参数,让模型能以最好的方式学习,这叫超参数调整(Hyper-Parameters)。
紧接着,对长上下文扩展(Long Context Extension)。
这就像教模型读长故事。DeepSeek-V3用了一些特别的技术,比如YaRN,来增加模型能处理的文本长度,从4K字节增加到128K字节。这样,模型就能理解更长的文章和故事了。
在学习的过程中,还得检查模型学得怎么样。这就是“评估基准”的作用。DeepSeek-V3会在各种测试上进行评估,比如MMLMU-Pro、GPQA-Diamond等,确保模型在不同的任务上都能表现得很好。
图释:DeepSeek-V3训练数据的方法
消融研究(ablation experiment)是什么?
DeepSeek-V3会做很多实验,看看哪些方法最管用。比如研究无辅助损失的负载平衡策略,找出哪些技术最能提高模型的性能等。
最后,模型通过动态调整,使得每个专家的工作量更加均衡,而不是通过辅助损失来强制平衡。如此一来,预训练阶段就能吸收和处理很多信息,学会理解和生成文本,为后面的训练打下坚实的基础。
看完这段报告后我觉得,训练模型就像给一个5岁孩子提供学习资源和环境一样,让它在成长过程中能够全面发展。
四
问题是:只有预训练还不够,后训练才能让模型更成熟。那么,DeepSeek-V3是怎么做的后训练呢?
首先是监督微调(Supervised Fine-Tuning,SFT)。
DeepSeek团队为模型准备了150万个实例的特别训练集,就像是一本包含各种生活场景的百科全书。每个训练集都是精心设计,确保模型能学会在不同情况下应该怎么处理。
对于那些需要逻辑和计算的数据,比如数学问题或者编程挑战,团队用了一个已经训练好的模型(DeepSeek-R1)来生成例子。
虽然这些例子通常很准确,但有时可能太复杂或者格式不规范。所以,团队的目标是让数据既准确又容易理解。
为了做到这一点,他们结合了监督微调(SFT)和强化学习(Reinforcement Learning,RL)的方法,训练了一些“专家模型”。这些专家模型就像专业的老师,负责教模型如何在特定领域做得更好。
在训练过程中,他们会创造两种类型的例子:一种是直接的问题和答案,另一种加上了“系统提示”的问题、答案和R1模型的响应。这些系统提示就像教学大纲,指导模型如何给出有深度和经过验证的答案。
对了,在“强化学习”阶段,模型会尝试不同的回答,根据效果得到奖励或惩罚。
通过这个过程,模型就学会了给出更好的答案;最后,团队会用“拒绝采样”的方法挑选最好的示例,用于最终模型的训练,这确保了用于模型学习的数据既准确又容易理解。
对于非推理数据,比如:写故事或者角色扮演,团队用了另一个模型(DeepSeek-V2.5)来生成回答,然后让人工检查这些回答是否准确和合适。这两个步骤,报告中称之为“评价标准”。
最后,DeepSeek团队对DeepSeek-V3-Base进行了两个时期的微调,采用了从5×10-6到1×10-6的“余弦衰减学习率调度”。
在训练期间,每个序列都由多个样本组成,但他们采用了“样本屏蔽策略”,确保示例相互独立,这是一种“开放评估”的模型。
通过这些后训练步骤,DeepSeek-V3能够在实际应用中做到更加精准,就像完成基础训练后,再给它进行一些专业技能的培训。
他们给它起的名字叫“生成奖励模型”,这让它不仅是一个学习者,还成为了一个评委;如此周而复始,建立一套正向反馈机制。
五
那么,通过这套模型训练出来的成果如何呢?
DeepSeek-V3做了一系列的全面基准测试,这些测试相当于给超级大脑出了一套标准化的试卷,看看它在各个科目上能得多少分。这些科目包括教育知识、语言理解、编程技能、数学问题解决等。
在数学推理上:
在MATH-500测试中,DeepSeek-V3得了90.2分,这个分数不仅比所有开源竞争对手高,比如Qwen 2.5的80分和Llama 3.1的73.8分,也超过了闭源模型GPT-4o的74.6分。
在MGSM(小学数学)测试中,DeepSeek-V3得了79.8分,超过了Llama 3.1的69.9分和Qwen 2.5的76.2分。在CMath(中国数学)测试中,DeepSeek-V3得了90.7分,比Llama 3.1的77.3分和GPT-4o的84.5分都要好。
图解:DeepSeek-V3基准测试数据
在编程和编码能力方面:
在LiveCodeBench测试中,DeepSeek-V3的通过率达到了37.6%,领先于Llama 3.1的30.1%和Claude 3.5 Sonnet的32.8%。
在HumanEval-Mul测试中,DeepSeek-V3得了82.6%,比Qwen 2.5的77.3%高,并且和GPT-4o的80.5%差不多。在CRUXEval-I测试中,DeepSeek-V3得了67.3%,明显优于Qwen 2.5的59.1%和Llama 3.1的58.5%。
在多语言和非英语任务上:
在CMMLU(中文多语言理解)测试中,DeepSeek-V3得了88.8分,超过了Qwen 2.5的89.5分,并且领先于Llama 3.1的73.7分。
在C-Eval,中国评估基准测试中,DeepSeek-V3得了90.1分,远远领先于Llama 3.1的72.5分。
其他数据还有很多,总的来说,DeepSeek-V3成绩遥遥领先;对了,还有一句要提的是:DeepSeek-V3的训练成本只有557.6万美元,这只是训练Meta的Llama 3.1所需估计的5亿美元的一小部分。
所以,DeepSeek-V3新的模型结构,无疑是如今人工智能领域中一次新的变革。高效、省力、省成本;难怪连OpenAI的前首席科学家Andrej Karpathy也表示,这是一次“令人印象深刻的展示”。
如果DeepSeek-V3在资源有限的情况下,都能表现出如此卓越的工程能力,以后是不是不需要大型GPU集群了?这个问题值得我们思考。